Optimización eficiente de hiperparámetros para RL en LLMs
Descubre cómo JF-HPO optimiza hiperparámetros en RL para LLMs, logrando hasta 14.9x más eficiencia y mejoras de rendimiento del 5.8% al 111.6%.
Descubre cómo JF-HPO optimiza hiperparámetros en RL para LLMs, logrando hasta 14.9x más eficiencia y mejoras de rendimiento del 5.8% al 111.6%.
Descubre AnyAudio-Judge, el nuevo benchmark con rúbricas dinámicas para evaluar instrucciones de audio.
XIPER: modelo de recompensa con predicción de video para aprender de videos expertos cross-domain. Supera brechas de color, morfología y sim-to-real.
Descubre cómo clasificar y predecir fallos en RLHF como reward hacking y colapso. Estudio empírico con PPO y DPO que revela dinámicas ocultas.
AirDreamer: navegación de drones con modelos del mundo. Logra un 5.3% más de éxito en entornos desconocidos. Transferencia sim-to-real sin ajustes.
Descubre cómo el aprendizaje por refuerzo con asesoría experta y control de incertidumbre mejora la seguridad en la conducción autónoma. Resultados en CARLA.
Descubre cómo GRiD usa modelos de difusión y aprendizaje por refuerzo para generar reglas tipo grafo, mejorando el razonamiento en grafos de conocimiento con resultados competitivos.
Descubre AdaCoM, un método de gestión de contexto adaptativo que mejora el rendimiento de agentes LLM en tareas largas, preservando restricciones y comprimiendo contenido obsoleto.
DecomposeR optimiza la investigación profunda con RL centrado en planificador y recompensa estructural. Mejora hasta 8 puntos en benchmarks.
SLAT: recorte adaptativo por segmentos reduce un 50% la longitud del razonamiento CoT sin perder precisión.
Aprende sobre Feedback Distillation, un método que mejora la demostración de teoremas en Lean4 superando al GRPO. Incrementa diversidad y eficiencia en el entrenamiento de modelos de razonamiento.
Aprende cómo MVL usa suavizado espacial para estimación de valor estable en RL offline, mejorando navegación y manipulación robótica.
Descubre cómo H-EARS mejora eficiencia energética y estabilidad en RL con recompensas híbridas guiadas por física. Resultados en benchmarks y simulaciones.
La amplificación de errores temporales limita la conversión de ANN a SNN en control continuo. Conoce CRPI, una solución ligera que suprime estos errores y recupera el rendimiento.
Descubre un algoritmo Actor-Critic que converge globalmente en juegos multiagente incorporando aversión al riesgo. Garantías de muestra finita y superioridad sobre métodos neutrales al riesgo.
Descubre IAPO: asigna ventajas a cada token según información mutua. Reduce razonamiento hasta 36% sin perder precisión. Optimiza tus modelos de lenguaje.
Descubre cómo el aprendizaje por refuerzo con información física (Pi-GCRL) maneja dinámicas de contacto híbridas en manipulación robótica. ¡Entra!
Descubre cómo SaEI mejora el razonamiento visual en modelos de lenguaje-visión mediante intervención adversarial de entropía, aumentando la exploración y diversidad de respuestas en RL.
Descubre cómo un nuevo paradigma entrena dos modelos de lenguaje como atacante y defensor en un juego no cooperativo, mejorando seguridad y utilidad. Resultados sorprendentes.
MulFeRL mejora el aprendizaje por refuerzo usando retroalimentación verbal en múltiples turnos para superar recompensas escalares y potenciar el razonamiento.